- Viestejä: 75
- Vastaanotettu kiitos 0
robots.txt - mitä pitää sisällään ja mihin ladataan?
- Suzuki
-
Aiheen kirjoittaja
- Poissa
- Täysjäsen
-
Vähemmän
Lisää
26.02.2016 13:32 - 08.03.2016 13:39 #8214
: Suzuki
Suzuki loi aiheen: robots.txt - mitä pitää sisällään ja mihin ladataan?
Hei,
mitä pitää sisällään Joomla-sivun robots.txt-tiedosto ja minne se pitää ladata?
Simppeli kysymys, toivottavasti joku osaa vastatakin simppelisti... Googlesta en löytänyt tarpeeksi yksinkertaista ohjetta näin yksinkertaiselle ihmiselle kuin itse olen
mitä pitää sisällään Joomla-sivun robots.txt-tiedosto ja minne se pitää ladata?
Simppeli kysymys, toivottavasti joku osaa vastatakin simppelisti... Googlesta en löytänyt tarpeeksi yksinkertaista ohjetta näin yksinkertaiselle ihmiselle kuin itse olen

Last Edit: 08.03.2016 13:39 : Suzuki. Syy: ratkaistu
Kirjaudu tai Rekisteröidy liittyäksesi keskusteluun.
- AkeMake
-
- Poissa
- Täysjäsen
-
Vähemmän
Lisää
- Viestejä: 92
- Vastaanotettu kiitos 6
08.03.2016 13:27 - 08.03.2016 13:42 #8220
: AkeMake
AkeMake vastasi aiheeseen: robots.txt - mitä pitää sisällään ja mihin ladataan?
Robot.txt tiedostohan tulee automaattisesti Joomla-asennuksen mukana, joten tavallisesti sitä ei tarvitse lähteä erikseen latailemaan mistään. En ole koskaan tarkemmin tutustunut kyseiseen tiedostoon vaan antanut sen vain olla siellä missä on. No, nyt päätin hiukan tutustua, että mistä siinä on kyse.
Näyttäisi tosiaan olevan niin kuin olen aina ajatellutkin. Eli jos Joomla-asennuksesi on sivuston juuressa (niin kuin itselläni aina on), niin robot.txt tiedostoon ei tarvitse koskea ollenkaan. Se on silloin siellä missä pitääkin. Jos Joomla taas ei ole sivuston juuressa, niin robot.txt pitää siirtää juureen. Eli jos Joomla on kansiossa www.example.com/joomla niin robot.txt tiedosto pitää siirtää sieltä sijaintiin www.example.com . Tällöin täytyy muuttaa myös tiedoston sisältöä, jotta se toimisi oikein. Eli edellä kuvattu siirto vaatisi sen, että jokaisen "Disallow" -rivin eteen lisätään "/joomla". Rivi "Disallow: /administrator/" muutettaisiin siis muotoon "Disallow: /joomla/administrator/".
robot.txt on tiedosto, jonka sivuilla käyvät robotit tarkistavat ennen sivuille tuloa. Kyseinen tiedosto kertoo roboteille mitkä osat sivusta sen pitäisi jättää huomiotta. Joomlassa robotteja siis esimerkiksi kielletään kokonaan menemästä Joomlan ylläpitopuolelle www.example.com/administrator . Robotit voivat kuitenkin jättää tämän tiedoston huomiotta ja valitettavasti useimmat "pahat" robotit niin tekevätkin. Lisäksi robot.txt tiedosto on julkisesti kaikkien saatavilla, joten kuka tahansa voi sieltä nähdä mitä osioita sivuston ylläpitäjä ei halua robottien käyttävän. Kyseistä tiedostoa ei siis kannata käyttää piilottamaan tiedostoja eikä olettaa, että se suojaisi sivustoa ikäviltä boteilta. Kohta "User-agent" kertoo mitä robotteja nämä tiedoston kiellot koskevat ja tähti sen edessä tarkoittaa, että ne koskevat kaikkia robotteja.
Uusimman Joomlan robot.txt näyttää sisältävän seuraavaa:Minulla näyttää lisäksi olevan omassa Joomlassani robot.txt.dist niminen tiedosto, joka sisältää täsmälleen samat tekstit kuin robot.txt. En sitten tiedä mihin sitä tarvitaan vai onko täysin turha.
Näyttäisi tosiaan olevan niin kuin olen aina ajatellutkin. Eli jos Joomla-asennuksesi on sivuston juuressa (niin kuin itselläni aina on), niin robot.txt tiedostoon ei tarvitse koskea ollenkaan. Se on silloin siellä missä pitääkin. Jos Joomla taas ei ole sivuston juuressa, niin robot.txt pitää siirtää juureen. Eli jos Joomla on kansiossa www.example.com/joomla niin robot.txt tiedosto pitää siirtää sieltä sijaintiin www.example.com . Tällöin täytyy muuttaa myös tiedoston sisältöä, jotta se toimisi oikein. Eli edellä kuvattu siirto vaatisi sen, että jokaisen "Disallow" -rivin eteen lisätään "/joomla". Rivi "Disallow: /administrator/" muutettaisiin siis muotoon "Disallow: /joomla/administrator/".
robot.txt on tiedosto, jonka sivuilla käyvät robotit tarkistavat ennen sivuille tuloa. Kyseinen tiedosto kertoo roboteille mitkä osat sivusta sen pitäisi jättää huomiotta. Joomlassa robotteja siis esimerkiksi kielletään kokonaan menemästä Joomlan ylläpitopuolelle www.example.com/administrator . Robotit voivat kuitenkin jättää tämän tiedoston huomiotta ja valitettavasti useimmat "pahat" robotit niin tekevätkin. Lisäksi robot.txt tiedosto on julkisesti kaikkien saatavilla, joten kuka tahansa voi sieltä nähdä mitä osioita sivuston ylläpitäjä ei halua robottien käyttävän. Kyseistä tiedostoa ei siis kannata käyttää piilottamaan tiedostoja eikä olettaa, että se suojaisi sivustoa ikäviltä boteilta. Kohta "User-agent" kertoo mitä robotteja nämä tiedoston kiellot koskevat ja tähti sen edessä tarkoittaa, että ne koskevat kaikkia robotteja.
Uusimman Joomlan robot.txt näyttää sisältävän seuraavaa:
# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://tool.motoricerca.info/robots-checker.phtml
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Last Edit: 08.03.2016 13:42 : AkeMake.
Kirjaudu tai Rekisteröidy liittyäksesi keskusteluun.
- Suzuki
-
Aiheen kirjoittaja
- Poissa
- Täysjäsen
-
Vähemmän
Lisää
- Viestejä: 75
- Vastaanotettu kiitos 0
08.03.2016 13:38 #8221
: Suzuki
Suzuki vastasi aiheeseen: robots.txt - mitä pitää sisällään ja mihin ladataan?
Kiitos, AkeMake! Tämä selvitti paljon.
Kirjaudu tai Rekisteröidy liittyäksesi keskusteluun.
Valvojat: jkwebdesign, Gamoss, JiiKoo
Sivu luotiin ajassa: 0.086 sekuntia